년 8월 AI 및 로봇 연구 동향

년 8월 AI 및 로봇 연구 동향

1. 서론: 2020년 8월, AI 연구의 변곡점

2020년 8월은 인공지능(AI) 및 로봇 공학 분야 연구 지형에서 중요한 변곡점으로 기록된다. 이 시기는 COVID-19 팬데믹의 영향으로 유럽 컴퓨터 비전 학회(ECCV 2020)와 같은 주요 학술 대회가 사상 처음으로 가상 공간에서 개최되었음에도 불구하고, 기초 연구와 응용 기술 양면에서 중대한 돌파구가 마련된 시점이었다.1 팬데믹으로 인한 물리적 교류의 제약은 역설적으로 지리적, 경제적 장벽을 낮추는 효과를 가져왔다. 이는 더 많은 연구자가 최신 연구에 접근할 기회를 제공했으며, 실제로 ECCV 2020의 논문 제출 수는 2018년 대비 두 배로 급증하는 현상으로 이어졌다.3 이러한 접근성의 확대는 후술할 RAFT, NeRF와 같은 혁신적인 아이디어의 전파 속도를 가속하고, 후속 연구의 폭발적인 증가를 촉발하는 기폭제로 작용했을 가능성을 시사한다.

이 기간 동안 컴퓨터 비전 분야에서는 3D 장면 이해와 동적 모션 추정의 패러다임을 전환하는 기념비적인 연구가 등장했으며, 자연어 처리(NLP) 분야에서는 비지도 학습의 자동화와 효율성이 한 단계 진보했다. 동시에 로봇 공학은 인간과 유사한 다중 감각 인지를 향한 중요한 진전을 이루었다. 한편, 미국과 중국을 중심으로 한 기술 패권 경쟁과 각국 정부의 전략적 투자 동향은 이러한 기술 발전에 거시적인 동력을 제공했다.5

본 보고서는 2020년 8월에 발표된 핵심 연구들을 심층적으로 분석하고, 이들이 서로 어떻게 영향을 미치며 AI 및 로봇 공학의 미래 궤적을 형성했는지 통합적으로 조망하는 것을 목표로 한다.

2. 인공지능 분야 핵심 알고리즘 및 프레임워크

2020년 8월은 AI의 근간을 이루는 핵심 알고리즘과 프레임워크에서 주목할 만한 발전이 집중적으로 발표된 시기였다. 특히 컴퓨터 비전, 비지도 학습, 딥러닝 모델 훈련 방법론 등에서 제시된 새로운 패러다임은 이후 연구 개발의 방향성에 큰 영향을 미쳤다.

2.1 컴퓨터 비전의 재구성: ECCV 2020 주요 발표 심층 분석

가상으로 개최된 ECCV 2020에서는 컴퓨터 비전의 오랜 난제들을 해결하는 혁신적인 연구들이 대거 발표되었다. 특히 최우수 논문으로 선정된 RAFT와 우수 논문으로 선정된 NeRF는 각각 동적 세계와 정적 3D 세계를 이해하고 재구성하는 방식에 새로운 기준을 제시했다. 이 두 연구의 성공은 순수한 데이터 기반의 접근을 넘어, 컴퓨터 비전과 그래픽스의 고전적 원리들(반복적 최적화, 볼륨 렌더링)을 딥러닝 프레임워크에 성공적으로 통합했다는 공통점을 가진다. 이는 딥러닝 모델이 물리적, 기하학적 제약을 내재화함으로써 더 적은 데이터로도 더 강건하고 신뢰할 수 있는 결과를 도출할 수 있음을 보여주는 중요한 설계 철학의 변화를 시사한다.

2.1.1 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Optical Flow, 즉 비디오 프레임 간 픽셀의 움직임을 추정하는 기술은 컴퓨터 비전의 근본적인 과제 중 하나이다. 기존의 딥러닝 기반 방법론들은 큰 변위(large displacement)나 텍스처가 없는 영역에서 성능이 저하되고, 특정 데이터셋에 과적합되어 일반화 성능이 떨어지는 한계를 보였다.7

제안 방법론

ECCV 2020 최우수 논문으로 선정된 RAFT는 전통적인 최적화 기반 접근법에서 영감을 받아, 딥러닝 아키텍처 내에서 반복적인 정제(iterative refinement) 과정을 구현함으로써 이 문제를 해결했다.4 RAFT의 아키텍처는 세 가지 핵심 요소로 구성된다.

  1. Feature Encoder (특징 인코더): CNN을 사용하여 입력 이미지 쌍(I_1, I_2)에서 픽셀 단위의 고밀도 특징(feature)을 추출한다. 추가로, 첫 번째 이미지 I_1에 대해서는 컨텍스트 정보를 추출하는 별도의 Context Encoder를 사용한다.8

  2. Correlation Layer (상관관계 레이어): 두 이미지의 모든 픽셀 특징 벡터 쌍(all-pairs) 간의 내적(inner product)을 계산하여 4차원 상관관계 볼륨(W \times H \times W \times H)을 생성한다. 이는 특정 픽셀의 잠재적 대응점을 광범위하게 탐색할 수 있게 하며, 기존 방식처럼 제한된 탐색 영역에 국한되지 않는다. 이 고차원 볼륨을 여러 스케일로 평균 풀링하여 상관관계 피라미드(correlation pyramid)를 구축한다.8

  3. Update Operator (업데이트 연산자): GRU(Gated Recurrent Unit) 기반의 순환 유닛을 사용하여 현재의 Flow 추정치를 반복적으로 업데이트한다. 각 업데이트 단계에서, 현재 Flow 추정치를 이용해 상관관계 피라미드에서 관련 특징을 조회(lookup)하고, 이를 입력으로 받아 더 정제된 Flow 업데이트 값(\Delta f)을 예측한다. 이 과정은 고해상도 Flow 필드를 그대로 유지하며 수행되어 저해상도에서 발생하는 정보 손실을 방지한다.8

결과 및 성능

RAFT는 기존 방법론들을 압도하는 성능을 기록했다. KITTI 데이터셋에서는 F1-all error 5.10%를, Sintel 데이터셋에서는 최종 패스 기준 EPE(End-Point-Error) 2.855 픽셀을 달성하며, 당시 최고 성능을 각각 16%, 30%씩 대폭 개선했다.8 특히 주목할 점은 강력한 일반화 능력이다. 합성 데이터셋(FlyingThings)으로만 학습했음에도 불구하고, 실제 데이터셋인 KITTI에서 기존 모델들보다 40% 이상 낮은 오류율을 기록하며 데이터셋 간의 도메인 격차를 효과적으로 극복했음을 입증했다.8

2.1.2 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

새로운 시점 합성(novel view synthesis)은 제한된 이미지들로부터 새로운 시점의 이미지를 생성하는 기술이다. 기존 방식들은 복잡한 기하학적 구조나 시점에 따라 변하는 반사 효과(view-dependent effects)를 사실적으로 렌더링하는 데 한계가 있었고, Voxel Grid와 같은 이산적인 3D 표현 방식은 해상도가 높아질수록 메모리 비용이 기하급수적으로 증가하는 문제를 안고 있었다.11

제안 방법론

ECCV 2020 우수 논문으로 선정된 NeRF는 3D 장면을 이산적인 데이터 구조가 아닌, 연속적인 함수로 표현하는 새로운 패러다임을 제시했다.4

  1. 5D 신경망 복사 필드 (Neural Radiance Field): NeRF는 장면을 하나의 MLP(Multi-Layer Perceptron)로 표현한다. 이 MLP는 3D 위치 좌표 (x, y, z)와 2D 시점 방향 (\theta, \phi)를 입력으로 받아, 해당 위치의 볼륨 밀도(volume density) \sigma와 시점에 따라 달라지는 RGB 색상(color) c를 출력하는 5차원 함수 F_\Theta: (x, y, z, \theta, \phi) \rightarrow (c, \sigma)이다.11 밀도는 위치에만 의존하고, 색상은 위치와 방향 모두에 의존하도록 설계하여 여러 시점에서 보아도 일관된 장면을 표현할 수 있게 했다.11

  2. 볼륨 렌더링 (Volume Rendering)과의 결합: 고전 컴퓨터 그래픽스의 볼륨 렌더링 원리를 활용하여 이미지를 생성한다. 특정 시점의 픽셀 색상을 결정하기 위해, 해당 픽셀을 통과하는 카메라 광선(ray)을 따라 여러 점을 샘플링하고, 각 점에서 MLP를 통해 얻은 색상 c와 밀도 \sigma 값을 적분한다. 이 렌더링 과정 전체가 미분 가능(differentiable)하기 때문에, 렌더링된 이미지와 실제 촬영된 이미지 간의 오차를 손실 함수로 정의하고, 이를 최소화하는 방향으로 MLP의 가중치 \Theta를 직접 최적화할 수 있다.11

  3. 성능 향상 기법:

  • Positional Encoding: MLP는 저주파 함수를 학습하는 경향이 있어 미세한 디테일을 표현하기 어렵다. 이를 해결하기 위해 입력 좌표를 \sin, \cos과 같은 고주파 함수를 통해 고차원 공간으로 매핑하여 MLP가 장면의 복잡하고 미세한 디테일(high-frequency details)을 효과적으로 학습하도록 돕는다.11

  • Hierarchical Sampling: 렌더링 효율과 품질을 동시에 높이기 위해 ’Coarse’와 ‘Fine’ 두 개의 네트워크를 사용한다. 먼저 Coarse 네트워크를 통해 광선을 따라 샘플링하고, 이 샘플들의 가중치 분포를 분석하여 장면에 내용이 있을 가능성이 높은 중요한 영역에 더 많은 샘플을 집중적으로 할당한다. 이후 Fine 네트워크는 이렇게 재할당된 샘플들을 사용하여 최종적으로 더 정교한 이미지를 렌더링한다.14

결과 및 영향

NeRF는 매우 적은 수의 입력 이미지만으로도 복잡한 장면의 사실적인 새로운 시점 이미지를 생성하며 당시 최고 수준(SOTA)의 성능을 달성했다. 이 연구는 3D 장면 표현 방식에 대한 근본적인 전환을 이끌었으며, 이후 3D 콘텐츠 생성, VR/AR, 로보틱스 시뮬레이션 등 다양한 분야에 혁신적인 영향을 미치며 수많은 후속 연구를 촉발시켰다.12

2.2 비지도 학습의 진화: 자동화된 토픽 모델링

LDA와 같은 전통적인 토픽 모델링 기법은 텍스트 데이터에서 주제를 추출하는 데 널리 사용되었으나, 여러 제약으로 인해 활용이 까다로웠다. 2020년 8월에 발표된 Top2Vec은 이러한 한계를 극복하기 위한 새로운 접근법을 제시했다. 이는 기존 방법론의 점진적 개선을 넘어, 문제의 근본적인 구조를 ’단어 분포’에서 ’벡터 공간의 밀집 영역’으로 재정의함으로써 복잡한 전처리나 하이퍼파라미터 튜닝 없이 더 직관적이고 강건한 해결책을 제시한 패러다임 전환의 사례로 볼 수 있다.

2.2.1 Top2Vec: Distributed Representations of Topics

전통적인 토픽 모델링은 불용어(stop-word) 제거, 어간 추출(stemming) 등 많은 수작업 전처리가 필요하며, 사용자가 토픽의 개수를 사전에 지정해야 하는 단점이 있었다.16 또한 Bag-of-Words(BOW) 표현 방식은 단어의 의미적, 순서적 맥락을 무시하는 한계를 지녔다.16

제안 방법론 (arXiv:2008.09470)

Top2Vec은 문서와 단어를 의미적으로 동일한 고차원 벡터 공간에 임베딩하여 이 문제를 해결한다.17 알고리즘은 다음과 같은 5단계로 구성된다.

  1. 공동 임베딩 (Joint Embedding): Doc2Vec, Universal Sentence Encoder (USE), 또는 BERT와 같은 사전 학습된 모델을 사용하여 문서 벡터와 단어 벡터를 공동으로 학습한다. 이 과정에서 의미적으로 유사한 문서와 단어는 벡터 공간에서 서로 가깝게 위치하게 된다.18

  2. 차원 축소 (Dimensionality Reduction): 고차원의 문서 벡터는 매우 희소(sparse)하여 클러스터링이 어렵다. 따라서 UMAP과 같은 비선형 차원 축소 기법을 사용하여 저차원 공간으로 압축하고, 데이터의 밀집된 구조를 보존한다.18

  3. 밀도 기반 클러스터링 (Density-based Clustering): HDBSCAN 알고리즘을 저차원 임베딩 공간에 적용하여 밀집된 문서 클러스터를 찾는다. 각 클러스터가 하나의 토픽에 해당하며, 이 과정에서 최적의 토픽 개수가 자동으로 결정된다.18

  4. 토픽 벡터 계산 (Topic Vector Calculation): 각 클러스터에 속한 문서 벡터들의 기하학적 중심점(centroid)을 원본 고차원 공간에서 계산한다. 이 중심점 벡터가 해당 토픽을 대표하는 ’토픽 벡터’가 된다.18

  5. 토픽 단어 식별 (Topic Word Identification): 생성된 토픽 벡터와 가장 가까운 거리에 있는 단어 벡터들을 순서대로 찾아 해당 토픽의 대표 단어로 선정한다.18

결과 및 영향

Top2Vec은 전처리 과정과 하이퍼파라미터 튜닝의 부담을 크게 줄여 토픽 모델링의 접근성을 획기적으로 높였다. 실험 결과, Top2Vec이 생성한 토픽은 기존 확률 모델 기반의 토픽보다 더 유익하고 데이터셋을 잘 대표하는 것으로 나타났다.16 이 모델은 고객 피드백 분석, 소셜 미디어 트렌드 파악, 학술 문헌 연구 동향 분석 등 산업 및 학계의 다양한 텍스트 분석 작업에 즉시 적용될 수 있는 강력하고 효율적인 도구의 등장을 의미한다.20

2.3 딥러닝 모델 훈련의 고도화

딥러닝 모델의 성능을 극대화하기 위해서는 정교한 훈련 기법이 필수적이다. 2020년 8월에는 복잡한 메트릭 러닝 알고리즘의 구현을 용이하게 하는 라이브러리와 객체 탐지 모델의 고질적인 클래스 불균형 문제를 해결하는 새로운 손실 함수가 발표되어 모델 훈련의 효율성과 정확성을 한 단계 끌어올렸다.

2.3.1 PyTorch Metric Learning

딥 메트릭 러닝은 얼굴 인식, 이미지 검색 등 다양한 분야에서 핵심적인 역할을 하지만, 관련 알고리즘들을 직접 구현하는 것은 매우 지루하고 시간이 많이 소요되는 작업으로, 연구자와 실무자에게 높은 진입 장벽으로 작용했다.22

라이브러리 설계 (arXiv:2008.09164)

PyTorch Metric Learning 라이브러리는 이러한 장벽을 제거하기 위해 모듈식(modular) 및 유연한(flexible) 설계를 채택했다.23 이 라이브러리는 Losses, Miners, Distances, Regularizers, Reducers 등 9개의 핵심 모듈로 구성되어 있으며, 각 모듈은 독립적으로 또는 유기적으로 조합하여 사용할 수 있다.23 예를 들어, 사용자는 Triplet Loss와 같은 손실 함수에 MultiSimilarityMiner와 같은 ’마이너’를 결합하여 훈련에 효과적인 어려운 샘플(hard samples)을 자동으로 선별하거나, L2 정규화와 같은 ’정규화기’를 손쉽게 추가하여 모델의 일반화 성능을 높일 수 있다.23

영향

이 라이브러리는 복잡한 메트릭 러닝 알고리즘의 조합과 실험을 용이하게 하여 관련 분야의 연구 개발 속도를 크게 가속했다. 이는 딥 메트릭 러닝의 민주화에 기여했으며, 특히 산업계에서 유사 이미지 검색, 이상 탐지, 개인화 추천 시스템 등 임베딩 기반의 다양한 고성능 애플리케이션 개발을 촉진하는 기반을 마련했다.25

2.3.2 AP-Loss for Accurate One-Stage Object Detection

SSD, YOLO와 같은 1단계(one-stage) 객체 탐지기는 빠른 속도를 장점으로 하지만, 수많은 앵커 박스(anchor box)로 인해 발생하는 극심한 전경-배경 클래스 불균형(foreground-background class imbalance) 문제로 인해 성능 저하를 겪는다. 분류 손실(classification loss)이 대다수를 차지하는 쉬운 배경 샘플(true negatives)에 의해 지배되어, 정작 중요한 전경 객체에 대한 학습이 제대로 이루어지지 않기 때문이다.27

제안 방법론 (arXiv:2008.07294)

이 논문은 기존의 분류 문제를 순위(ranking) 문제로 재정의하는 혁신적인 접근법을 제시했다. 즉, 객체 탐지의 최종 평가 지표인 Average Precision(AP) 자체를 손실 함수(AP-Loss)로 사용하여 직접 최적화하는 방식을 제안했다.29

  1. AP-Loss 개념: AP-Loss의 핵심 목표는 모든 긍정 샘플(positive sample)의 예측 점수가 모든 부정 샘플(negative sample)의 예측 점수보다 높도록, 즉 순위가 앞서도록 학습하는 것이다. 이는 개별 샘플을 독립적으로 보는 대신 샘플 간의 상대적인 관계를 명시적으로 모델링하므로, 긍정-부정 샘플의 비율에 덜 민감하다.29

  2. 최적화 방법 (Error-driven Update): AP는 순위 계산에 포함된 Heaviside 계단 함수로 인해 비미분성(non-differentiable) 및 비볼록성(non-convex)을 띈다.27 연구진은 이를 해결하기 위해 퍼셉트론 학습(perceptron learning)에서 영감을 받은 ‘오류 주도 업데이트(error-driven update)’ 기법을 개발했다. 이 방식은 순위 오류가 발생한 긍정-부정 샘플 쌍에 대해, 오류의 크기에 비례하는 업데이트 신호를 생성하고 이를 비미분성 함수를 통과시켜 역전파 알고리즘과 결합한다.28

  3. AP-Loss 수식: AP-Loss의 수학적 공식은 다음과 같이 표현된다.

L_{AP}(\mathbf{x}) = \frac{1}{\vert P \vert} \sum_{i \in P} \frac{\sum_{j \in N} H(x_{ij})}{1 + \sum_{k \in P \cup N, k \neq i} H(x_{ik})}
여기서 PN은 각각 긍정, 부정 샘플 집합을, x_{ij} = s_j - s_i는 두 샘플의 점수 차이를, H(\cdot)는 Heaviside 계단 함수를 의미한다.31

결과 및 영향

AP-Loss를 적용한 1단계 탐지기는 PASCAL VOC, MS COCO와 같은 표준 벤치마크에서 기존의 분류 손실 기반 탐지기보다 우수한 성능을 달성했다.33 이 연구는 훈련 손실 함수와 최종 평가 지표 간의 불일치(misalignment) 문제를 해결하는 새로운 방향을 제시했으며, 이후 aLRP Loss, Parameterized AP Loss 등 다양한 순위 기반 손실 함수 연구에 직접적인 영감을 주었다.32

Table 1: 2020년 8월 주요 AI 연구 논문 비교 분석

논문명 (Paper)핵심 문제 (Core Problem)제안 방법론 (Proposed Methodology)주요 기여 (Key Contribution)
RAFT기존 Optical Flow 추정의 낮은 정확도 및 일반화 성능모든 픽셀 쌍의 상관관계 볼륨과 순환 업데이트 연산자를 결합한 새로운 아키텍처Optical Flow 분야에서 SOTA 달성 및 뛰어난 일반화 성능 입증, 고전적 최적화 원리를 딥러닝에 성공적으로 통합 8
NeRF새로운 시점 합성의 낮은 사실성과 이산적 3D 표현의 높은 메모리 비용장면을 연속적인 5D 신경망 복사 필드(MLP)로 표현하고 미분 가능한 볼륨 렌더링으로 최적화적은 이미지로 매우 사실적인 3D 장면 렌더링을 가능하게 하여 3D 비전 및 그래픽스 분야의 패러다임 전환 11
Top2Vec전통적 토픽 모델링의 복잡한 전처리, 토픽 수 지정, 의미적 맥락 부재문서와 단어를 공동 임베딩 후, 밀도 기반 클러스터링을 통해 토픽을 자동으로 탐지토픽 모델링의 전처리 및 하이퍼파라미터 튜닝 과정을 자동화하여 접근성과 성능을 크게 향상 16
PyTorch Metric Learning딥 메트릭 러닝 알고리즘 구현의 높은 복잡성과 시간 소요Losses, Miners, Regularizers 등 모듈화된 구성 요소를 제공하는 유연한 라이브러리딥 메트릭 러닝의 민주화, 복잡한 알고리즘의 신속한 프로토타이핑 및 실험을 가능하게 함 23
AP-Loss1단계 객체 탐지기의 극심한 전경-배경 클래스 불균형 문제분류 문제를 순위 문제로 재정의하고, 비미분성 AP 지표를 오류 주도 업데이트로 직접 최적화손실 함수와 평가 지표의 불일치를 해소하고 클래스 불균형 문제에 강건한 새로운 훈련 패러다임 제시 29

3. 로봇 공학 분야의 발전과 산업 동향

2020년 8월 로봇 공학 분야는 개별 로봇의 지각 능력을 인간과 유사하게 확장하려는 기초 연구와, 여러 로봇이 협력하여 복잡한 과업을 수행하는 시스템적 접근이 동시에 중요한 진전을 보였다. 이러한 연구들은 미래 로봇 시스템이 단일 개체의 완벽함을 추구하기보다, 불완전한 능력을 가진 다중 에이전트들이 감각 정보를 공유하고 물리적으로 협력하여 복잡한 문제를 해결하는 ’분산형 집단 지능’의 형태로 발전할 것임을 암시한다.

3.1 로봇 인식의 다중 감각 확장: 청각의 부상

로봇 공학은 전통적으로 시각 센서에 크게 의존해왔다. 그러나 실제 환경은 조명이 부족하거나 시야가 가려지는 등 시각 정보만으로는 한계가 있는 상황이 빈번하다. 이에 대한 해결책으로 다중 감각(multi-sensory) 정보의 활용이 중요하게 부상했다.

3.1.1 카네기 멜런 대학의 ‘Sounds of Action’ 연구

연구 목표

카네기 멜런 대학(CMU) 로보틱스 연구소는 로봇이 전통적인 시각, 촉각 중심의 인식에서 벗어나 ’청각’을 활용했을 때 얻을 수 있는 이점을 정량적으로 평가하는 최초의 대규모 연구를 수행했다.36

실험 방법

연구팀은 ’Tilt-Bot’이라는 독창적인 실험 장치를 제작했다. 이는 Sawyer 로봇 팔에 부착된 사각형 트레이로, 장난감 블록, 공구, 과일 등 60종의 다양한 일상용품을 트레이 안에서 무작위로 기울이고 흔들어 벽에 부딪히게 했다. 이 과정에서 발생하는 소리와 영상을 동시에 고품질 마이크와 카메라로 녹화하여, 총 15,000개 이상의 상호작용으로 구성된 대규모 데이터셋을 구축하고 이를 공개했다.36

주요 발견

실험 결과는 청각 정보의 잠재력을 명확히 보여주었다.

  • 로봇은 다른 정보 없이 오직 소리 정보만을 이용하여 물체를 76%의 높은 성공률로 분류해냈다. 이는 무작위 추측(약 2%)에 비해 월등히 높은 수치다.36

  • 로봇은 소리를 통해 물체의 종류(예: 금속 렌치 vs. 금속 스크루드라이버)뿐만 아니라, 어떤 행동(action)이 소리를 유발했는지, 그리고 이전에 들어보지 못한 새로운 물체의 물리적 속성(예: 단단함, 재질)까지 예측할 수 있음을 보였다.36

  • 청각 정보의 유용성과 한계 또한 명확히 드러났다. 예상대로 로봇은 소리만으로 물체의 색깔(예: 빨간 블록 vs. 녹색 블록)은 구분하지 못했지만, 형태가 다른 물체(예: 블록 vs. 컵)는 효과적으로 구분했다.36

중요성

이 연구는 로봇이 빛이 부족하거나 시야가 가려진 복잡한 환경에서도 청각을 통해 주변 환경을 이해하고 상호작용할 수 있는 새로운 가능성을 열었다.37 이는 로봇의 환경 인식 능력과 자율성을 한 차원 높이는 중요한 학문적 진전으로 평가된다.

3.2 로봇 시스템의 협업 및 적용 동향

단일 로봇의 능력 향상과 더불어, 여러 로봇이 협력하여 개별 로봇의 한계를 극복하는 연구 또한 활발히 진행되었다. 이는 산업 현장의 자동화 패러다임 변화와도 맥을 같이 한다.

3.2.1 극한 환경 탐사를 위한 이종 로봇 협력

펜실베이니아 대학(UPenn) 연구팀이 주도한 TRUSSES 프로젝트는 달, 화성과 같은 극한 환경 탐사를 목표로, 서로 다른 종류의 로봇이 협력하는 시스템을 선보였다.38 바퀴형 로버는 안정적이지만 모래 지형에서 미끄러지기 쉽고, 다리형 로봇은 접지력이 좋지만 쉽게 전복될 수 있는 단점을 가진다. 연구팀은 이 두 로봇을 물리적으로 연결(tethering)하여 서로를 끌어주고 밀어주며 상호 보완하도록 했다. 실제 필드 테스트에서 이 협력 시스템은 단독으로는 오를 수 없었던 15도의 가파른 모래 언덕을 함께 등반하는 데 성공했다.38 이는 단일 고성능 로봇에 의존하는 대신, 여러 로봇의 협력을 통해 임무의 강건성(robustness)과 유연성을 높이는 새로운 탐사 패러다임을 제시한다.

3.2.2 산업 및 서비스 로봇 동향

국제로봇연맹(IFR)은 2020년 로봇 산업의 3대 핵심 동향으로 **단순화(Simplification), 협업(Collaboration), 디지털화(Digitalization)**를 제시했다.39

  • 단순화: 전문가가 아닌 작업자도 쉽게 로봇을 조작할 수 있도록, 인간이 로봇 팔을 직접 움직여 동작을 가르치는 ’Programming by Demonstration’과 같은 직관적인 프로그래밍 방식이 확산되고 있다.39

  • 협업: 인간과 로봇이 안전 펜스 없이 같은 공간에서 순차적 또는 동시 작업을 수행하는 인간-로봇 협업(HRC) 애플리케이션이 제조업을 중심으로 빠르게 확장되고 있다.39

  • 디지털화: 로봇이 산업 사물 인터넷(IIoT)에 연결되어 데이터를 생성하고, 클라우드 기술을 기반으로 로봇 하드웨어, 소프트웨어, 유지보수를 구독 형태로 제공하는 서비스형 로봇(Robots-as-a-Service, RaaS) 비즈니스 모델이 특히 초기 투자 비용에 부담을 느끼는 중소기업을 중심으로 부상하고 있다.39

3.3 2020년 8월 로봇 산업 투자 동향 및 경제적 영향

기초 연구의 발전과 더불어 로봇 산업에 대한 투자 역시 활발하게 이루어졌다. 2020년 8월 한 달간 로봇 분야에서는 총 50건의 거래를 통해 23억 달러 규모의 투자가 집행되었다.40

주요 투자 분야

자율주행차 기술이 16억 달러 이상을 유치하며 투자를 압도적으로 주도했다. 특히 중국의 전기차 및 자율주행 기술 기업인 샤오펑 모터스(Xpeng)가 15억 달러 규모의 기업공개(IPO)를 단행한 것이 가장 큰 규모의 단일 거래였다. 그 뒤를 이어 산업 자동화 및 제조 분야가 1억 1,900만 달러 이상, 수술 로봇 및 연구소 자동화를 포함한 헬스케어 시스템 분야가 1억 1,100만 달러 이상의 투자를 유치하며 강력한 성장세를 보였다.40

Table 2: 2020년 8월 로봇 분야 투자 요약

분야 (Sector)투자 유치액 (Funding Raised)주요 사례 (Key Examples)
자율주행차 (Autonomous Vehicles)16억 달러 이상Xiaopeng Motors (15억 달러 IPO), Luminar Technologies, AIDriving
산업 자동화 (Industrial Automation)1억 1,900만 달러 이상Shanghai SK Automation Technology (1.05억 달러 IPO), Rokae, Fox Robotics
헬스케어 시스템 (Healthcare Systems)1억 1,100만 달러 이상Procept BioRobotics (7,700만 달러), OpenTrons Labworks, NextStep Robotics
공급망 자동화 (Supply Chain Automation)8,000만 달러Cimcorp, Solution Net Systems

출처: The Robot Report 40

경제적 영향

산업용 로봇 도입이 생산성에 미치는 긍정적인 영향 또한 데이터로 확인되었다. 한 보고서에 따르면, 산업용 로봇 밀도(백만 노동 시간당 투입된 로봇 수)가 1% 증가할 때, 노동 생산성이 0.8% 증가하는 유의미한 상관관계가 나타났다.41 이는 로봇을 통한 자동화가 기업의 경쟁력 강화와 국가 경제 성장의 핵심 동력임을 시사한다.

4. 결론: 2020년 8월 연구 성과의 통합적 의의와 미래 전망

2020년 8월은 AI의 ’인식(Perception)’과 ‘추론(Reasoning)’ 능력이 고전적 원리와의 융합을 통해 한 단계 도약하고, 로봇 공학이 ’다중 감각(Multi-sensory)’과 ’협업 지능(Collaborative Intelligence)’을 향해 나아가는 중요한 분기점이었다. 이 시기에 발표된 연구들은 개별적으로도 의미가 크지만, 통합적인 관점에서 볼 때 미래 기술의 청사진을 제시하는 핵심 구성 요소들로 작용한다.

RAFT의 동적 세계 이해 능력과 NeRF의 정적 3D 세계 재구성 능력은 로봇이 주변 환경을 모델링하는 방식에 근본적인 변화를 예고한다. 이러한 정교한 시각 모델이 CMU의 청각 인식과 같은 비시각적 감각 정보와 결합될 때, 로봇은 훨씬 더 풍부하고 강건한 월드 모델(world model)을 구축할 수 있게 될 것이다. 예를 들어, 시야가 확보되지 않는 환경에서도 소리를 통해 지면의 상태를 파악하고, 보이지 않는 객체의 움직임을 감지하는 것이 가능해진다.

Top2Vec, PyTorch Metric Learning, AP-Loss와 같은 연구들은 이러한 고도화된 모델을 더 쉽게 개발하고, 훈련하며, 분석할 수 있는 강력한 도구와 방법론을 제공함으로써 전체 AI 생태계의 발전을 가속하는 역할을 한다. 복잡한 아이디어를 빠르고 효율적으로 구현하고 검증할 수 있는 기반이 마련됨으로써, 혁신의 속도는 더욱 빨라질 것이다.

궁극적으로, 2020년 8월에 제시된 각 분야의 성과들은 하나의 통합된 시나리오로 수렴될 수 있다. NeRF로 구축된 사실적인 3D 환경 모델 속에서, RAFT로 동적 객체의 움직임을 예측하고, 청각 정보로 보이지 않는 위험을 감지하며, 이종 로봇들이 물리적으로 협력하여(TRUSSES) 복잡한 과업을 수행하는 미래가 그것이다. 2020년 8월의 연구들은 이러한 미래를 향한 핵심적인 구성 요소들을 각각 제시한, 의미 있는 한 달로 평가될 수 있다.

5. 참고 자료

  1. Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part VIII - Graz University of Technology, https://tugraz.elsevierpure.com/en/publications/computer-visioneccv-2020-16th-european-conference-glasgow-uk-augu
  2. ECCV 2020 |, https://eccv2020.eu/
  3. syncedreview.com, https://syncedreview.com/2020/08/24/eccv-2020-best-paper-award-goes-to-princeton-team/#:~:text=The%20Best%20Paper%20honours%20go,the%20previous%20conference%20in%202018.
  4. ECCV 2020 Best Paper Award Goes to Princeton Team - Synced Review, https://syncedreview.com/2020/08/24/eccv-2020-best-paper-award-goes-to-princeton-team/
  5. “기술혁신 뿐 아니라 완전히 새로운 AI시대 준비해야” - 지디넷코리아, https://zdnet.co.kr/view/?no=20230110155704
  6. 2020–2024 Progress Report: Advancing Trustworthy Artificial Intelligence R&D - NITRD, https://www.nitrd.gov/ai-research-and-development-progress-report-2020-2024/
  7. Rethinking RAFT for Efficient Optical Flow - arXiv, https://arxiv.org/html/2401.00833v1
  8. RAFT Recurrent All-Pairs Field Transforms for Optical Flow., https://oar.princeton.edu/bitstream/88435/pr1j83h/1/RecurrentAllPairsFieldTransformsOpticalFlow.pdf
  9. Award Calls | ECCV 2020, https://eccv2020.eu/awards/
  10. [PDF] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow | Semantic Scholar, https://www.semanticscholar.org/paper/RAFT%3A-Recurrent-All-Pairs-Field-Transforms-for-Flow-Teed-Deng/3230e2d6b4671cc03974af2219c6d3270e6fac70
  11. NeRF: Representing Scenes as Neural Radiance Fields for View …, https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Mildenhall21.pdf
  12. arXiv:2401.12456v1 [cs.CV] 23 Jan 2024, https://arxiv.org/pdf/2401.12456
  13. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, https://neuralfields.cs.brown.edu/paper_33.html
  14. Notes on NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis by Mildenhall et al | by M(A)C | Medium, https://medium.com/@chengmu/notes-on-nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis-by-mildenhall-et-al-fd88f715fe77
  15. arXiv:2210.15947v2 [cs.CV] 18 Feb 2023, https://arxiv.org/pdf/2210.15947
  16. Top2Vec: Distributed Representations of Topics - ResearchGate, https://www.researchgate.net/publication/343825670_Top2Vec_Distributed_Representations_of_Topics
  17. Top2Vec: Distributed Representations of Topics, https://arxiv.org/pdf/2008.09470
  18. Top2Vec 1.0.34 documentation - Read the Docs, https://top2vec.readthedocs.io/en/stable/Top2Vec.html
  19. Topic Modeling Approaches: Top2Vec vs BERTopic - KDnuggets, https://www.kdnuggets.com/2023/01/topic-modeling-approaches-top2vec-bertopic.html
  20. Top2Vec: Revolutionizing Unsupervised ML for Efficient Text Analysis - CloudThat, https://www.cloudthat.com/resources/blog/top2vec-revolutionizing-unsupervised-ml-for-efficient-text-analysis
  21. Experiments with LDA and Top2Vec for embedded topic discovery on social media data—A case study of cystic fibrosis - Frontiers, https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2022.948313/full
  22. [2008.09164] PyTorch Metric Learning - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/2008.09164
  23. PyTorch Metric Learning, https://arxiv.org/pdf/2008.09164
  24. KevinMusgrave/pytorch-metric-learning: The easiest way to use deep metric learning in your application. Modular, flexible, and extensible. Written in PyTorch. - GitHub, https://github.com/KevinMusgrave/pytorch-metric-learning
  25. PyTorch Metric Learning: A Practical Guide for Advanced Applications | by Hey Amit, https://medium.com/@heyamit10/pytorch-metric-learning-a-practical-guide-for-advanced-applications-075634bff016
  26. PyTorch Metric Learning - Emergent Mind, https://www.emergentmind.com/articles/2008.09164
  27. AP-Loss for Accurate One-Stage Object Detection | Request PDF - ResearchGate, https://www.researchgate.net/publication/343711738_AP-Loss_for_Accurate_One-Stage_Object_Detection
  28. Towards Accurate One-Stage Object Detection With AP-Loss - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2019/papers/Chen_Towards_Accurate_One-Stage_Object_Detection_With_AP-Loss_CVPR_2019_paper.pdf
  29. AP-Loss for Accurate One-Stage Object Detection - Weiyao Lin, https://weiyaolin.github.io/pdf/AP_cka.pdf
  30. AP-Loss for Accurate One-Stage Object Detection | Request PDF - ResearchGate, https://www.researchgate.net/publication/341062277_AP-Loss_for_Accurate_One-Stage_Object_Detection
  31. Towards Accurate One-Stage Object Detection … - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2019/supplemental/Chen_Towards_Accurate_One-Stage_CVPR_2019_supplemental.pdf
  32. (PDF) A Ranking-based, Balanced Loss Function Unifying …, https://www.researchgate.net/publication/344422519_A_Ranking-based_Balanced_Loss_Function_Unifying_Classification_and_Localisation_in_Object_Detection
  33. AP-Loss for Accurate One-Stage Object Detection - Heriot-Watt Research Portal, https://researchportal.hw.ac.uk/en/publications/ap-loss-for-accurate-one-stage-object-detection
  34. [2008.07294] AP-Loss for Accurate One-Stage Object Detection - arXiv, https://arxiv.org/abs/2008.07294
  35. Searching Parameterized AP Loss for Object Detection, https://proceedings.neurips.cc/paper/2021/file/b9009beb804fa097c04d226a8ba5102e-Paper.pdf
  36. Sounds of Action: Using Ears, Not Just Eyes, Improves Robot …, https://www.cmu.edu/news/stories/archives/2020/august/robots-using-sound.html
  37. By ‘hearing’, robots gain a new sense of their surroundings - create digital, https://createdigital.org.au/hearing-robots-gain-new-sense/
  38. Helping robots work together to explore the Moon and Mars - Penn Engineering Blog, https://blog.seas.upenn.edu/helping-robots-work-together-to-explore-the-moon-and-mars/
  39. Top Trends Robotics 2020 - International Federation of Robotics, https://ifr.org/news/top-trends-robotics-2020/
  40. August 2020 robotics investments continue to keep pace - The Robot Report, https://www.therobotreport.com/august-2020-robotics-investments-recap/
  41. Robots and the Economy - The Role of Automation in Driving Productivity Growth - International Trade Administration, https://www.trade.gov/sites/default/files/2022-08/SelectUSAAutomationReport2020.pdf